9.S3 存储插件

来源 1 浏览 672 扫码打印 2020-01-03 19:56:28

S3 存储插件

启用的版本是 1.3.0，Drill 有能力去查询存储在 Amazon 的 S3 云端上的文件，配置其存储插件，并使用 S3 的依赖库。这是很重要的，因为 S3 增加了支持 5G 的文件。

提供你的 AWS 证书。
配置 S3 存储插件到 S3 bucket。

启用 Drill 的 S3 支持，在你的 Drill 安装目录中，编辑文件，替换 ENTER_YOUR_ACESSKEY 和 ENTER_YOUR_SECRETKEY 为你的 AWS 证书。

配置 S3 存储插件

复制 “dfs” 插件。点击 “dfs” 插件的 “Update” 按钮，复制出现的 JSON 文本。
创建一个新的存储插件，并粘贴刚刚复制的 “dfs” 文本。
替换 “file:///” 为你的 “s3a://your.bucketname”。

你现在应该能够通过 S3a 库，使用存储在 S3 上的数据了。

幸运的是，在 Hadoop 2.7.1 中实现了 S3a 的该部分功能，HttpClient 的请求的限制参数的提取，通过配置能够避免 ConnectionPoolTimeoutException。下面是如何去设置相关参数到 conf/core-site.xml 文件中：

本文档使用全库网构建